iT邦幫忙

2021 iThome 鐵人賽

DAY 2
2
AI & Data

機器學習應用於語音相關服務系列 第 2

Day02 - 語音辨識的架構、發展過程

  • 分享至 

  • xImage
  •  

雖然目前深度學習的技術是開發語音辨識系統的主流,而且也已經取得不錯的成果。但如果要了解語音辨識系統的架構、運作原理,就必須要從傳統的語音辨識技術開始說起。

傳統的語音辨識系統主要包含3部分

  1. 聲學模型(Acoustic model, AM): 負責處理輸入音頻(audio)轉換成音素(phoneme)
  2. 發音詞典(Lexicon): 負責將聲學模型產生的音素(phoneme)轉換成字(word)
  3. 語言模型(Language model, LM): 負責將各別的字(word)組合成句子(sentence)

其中聲學模型和語言模型是分開訓練,一般常使用高斯混合模型(GMM-HMM) 作為系統架構,如下圖:
https://ithelp.ithome.com.tw/upload/images/20210914/20140944zlGcDfGpKu.png
Seq2seq 架構圖,圖片來源: https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/

語音辨識的原理其實可以簡單地用一個數學式表達:

https://chart.googleapis.com/chart?cht=tx&chl=W%5E%7B*%7D%3D%5Carg%5Cmax_%7BW%7DP(W%7CX)

W 是辨識得到的文字序列,X 是輸入的音訊(包含多個音框, frame),因此目標就是在已知的輸入音訊下,找出機率最
高的輸出文字序列。透過貝氏定理(Bayes' theorem) 可將上述數學式轉換成:

https://chart.googleapis.com/chart?cht=tx&chl=W%5E%7B*%7D%3D%5Carg%5Cmax_%7BW%7DP(W%7CX)%3D%5Carg%5Cmax_%7BW%7DP(X%7CW)P(W)

其中,P(X|W) 表示給定一文字序列 W 下出現音訊 X 的機率,即為聲學模型(AM);P(W) 表示文字序列W出現的機率,即為語言模型(LM)。

但是隨著深度學習的發展,愈來愈多的研究開始使用類神經網路(Neural Network, NN) 去取代GMM,形成 DNN-HMM 的混合(hybrid)架構,達到與GMM-HMM相同甚至更好的表現。到了現在,研究人員連 HMM 也捨棄不用,讓整個語音辨識系統全由單一神經網路構成,像這樣從輸入端到輸出端只透過一個神經網路模型完成稱做端到端(end-to-end)語音辨識。
第二天的內容就到這邊,接下來將會介紹什麼是端到端(end-to-end)語音辨識 !

參考資料: https://engineering.linecorp.com/zh-hant/blog/speech-technology-0207/


上一篇
Day01 - 人工智慧遇上語音辨識
下一篇
Day03 - 端到端(end-to-end)語音辨識
系列文
機器學習應用於語音相關服務30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言